Voici la Boîte à Outils 3
"Extraction Patron"

Le but de la Boîte à Outils 3, c'est d'extraire les patrons présents dans les fichiers étiquetés à l'aide de Cordial et TreeTagger.

________________________________________________________________________________________________________

"CORDIAL"


Afin d'effectuer l'extraction des patrons, j'ai utilisé un script Perl pour les fichiers étiquétés via Cordial.

Voici une partie de celui-ci:

Dans le cadre rouge de l'image du script se trouvent les deux solutions possibles pour l'extraction des patrons. En effet, on a un fichier de patrons différent de l'autre, voici à quoi ils correspondent:

Ici c'est le patron 1 : il correspond à la première ligne du cadre rouge


Ici c'est le patron 2 : il correspond à la deuxième ligne du cadre rouge

A l'aide des deux fichiers de patrons différents, j'ai donc fait deux sorties différentes pour les fichiers Cordial.

Ci-dessous la ligne à écrire dans la fenêtre de commande afin de générer l'extraction des patrons:

perl programmeetiquetage.pl sortie3208.cnr patrons.txt > fichiersortie.txt

ou

perl programmeetiquetage.pl sortie3208.cnr patrons2.txt > fichiersortie.txt


Ci-dessous le fichier contenant le script Perl en entier:

programmeetiquetage.pl


Voici les fichiers de sortie générés par le programme avec les différents patrons (1 et 2) avec la rubrique 3208 :

Fichiers entiers sur les 3 rubriques :

3208PatronsCordial

3246PatronsCordial

3214PatronsCordial


3208Patrons2Cordial

3246Patrons2Cordial

3214Patrons2Cordial



________________________________________________________________________________________________________

"TREETAGGER"


Afin d'extraire les patrons avec les fichiers étiquetés par TreeTagger, j'ai utilisé un script Perl.

Le voici:

Ce dernier s'utilise dans la fenêtre de commande de cette façon:

perl extract-patron-treetagger.pl sortie_3208.xml > sortiefichier.txt

Ci-dessous le fichier contenant le script Perl en entier:

extract-patron-treetagger

Voici les fichiers de sortie générés par le programme :

3208PatronsTreetagger

3246PatronsTreetagger

3214PatronsTreetagger



__________________________________________

TreeTagger Requêtes XQuery/XPath

cf: Cours XML Documents Structurés


Voici les requêtes qui ont été demandées dans le cours Documents Structurés :

Construire une requête pour extraire les patrons morpho-syntaxiques NOM ADJ

Construire une requête pour extraire les patrons morpho-syntaxiques NOM PRP NOM

Malheureusement je n'ai pas pu intégré mes requêtes ci-dessous à mes différentes rubriques car la structure de mes fichiers XML n'était pas en accord avec la sortie XML voulue par Firefox. De ce fait, j'ai quand même mis les requêtes et les sorties obtenues avec le fichier 3210_tt.xml

Les requêtes :

Les sorties: